<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.

   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

---

## Importar librerías

In [98]:
import pandas as pd
import numpy as np

pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

## Parte 1 EDA

### Carga de datos

In [5]:
df_originals = pd.read_csv('datos/netflix_originals.csv')
df_titles = pd.read_csv('datos/netflix_titles.csv')

In [18]:
df_originals.head()

Unnamed: 0.1,Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
508,576,Cuba and the Cameraman,Documentary,"November 24, 2017",114,8.3,English
509,577,Dancing with the Birds,Documentary,"October 23, 2019",51,8.3,English
510,580,Winter on Fire: Ukraine's Fight for Freedom,Documentary,"October 9, 2015",91,8.4,English/Ukranian/Russian
511,581,Springsteen on Broadway,One-man show,"December 16, 2018",153,8.5,English
512,583,David Attenborough: A Life on Our Planet,Documentary,"October 4, 2020",83,9.0,English


In [7]:
df_titles.head()

Unnamed: 0.1,Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


### Análisis de columnas y consistencia

#### Tipos de datos

In [73]:
# Podemos ver las columnas usando .columns
df_originals.columns

Index(['Unnamed: 0', 'Title', 'Genre', 'Premiere', 'Runtime', 'IMDB Score',
       'Language'],
      dtype='object')

In [10]:
# Si además queremos el tipo de dato podemos utilizar .dtypes
df_originals.dtypes

Unnamed: 0      int64
Title          object
Genre          object
Premiere       object
Runtime         int64
IMDB Score    float64
Language       object
dtype: object

* Unnamed: 0 : Es un identificador numérico que parece coincidir con el índice, aunque hay saltos en algunos intevalos lo que puede sugerir que algunas películas no han sido incluidas en el dataset.

* Title: Cadena de texto con el título de la película.

* Genre: Cadena de texto con el género de la película.

* Premiere: Cadena de texto que contiene la fecha de estreno.

* Runtime: Valor numérico entero que indica la duración de la película.

* IMDB Score: Valor numérico flotante que nos indica la puntuación otrogada por IMDB.

* Language: Cadena de texto que indica el idioma.


In [74]:
df_titles.columns

Index(['Unnamed: 0', 'show_id', 'type', 'title', 'director', 'cast', 'country',
       'date_added', 'release_year', 'rating', 'duration', 'listed_in',
       'description'],
      dtype='object')

In [32]:
df_titles.dtypes

Unnamed: 0       int64
show_id         object
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object

* Unnamed: 0 : Es un identificador numérico que parece coincidir con el índice. En este caso no parece haber saltos por lo que es redundante respecto al índice de filas.

* show_id: Cadena de texto identificadora de la película o serie. Tampoco hay saltos de forma que también es redundante.

* type: Cadena de texto con el tipo de contenido, si serie o película.

* title: Cadena de texto con el título de la película o serie.

* director: Cadena de texto con el director de la película o serie.

* cast: Cadena de texto con los actores principales.

* country: Cadena de texto con el país.

* date_added: Cadena de texto con el fecha exacta.

* release_year: Valor numérico entero con el año de estreno.

* rating: Cadena de texto con la categoría por edades.

* duration: Cadena de texto con la dureción en minutos.

* listed_in: Géneros a los que puede pertenecer.

* description: Cadena de texto con la descripción de la película o serie.


In [35]:
# Comprobamos el tamaño del DataFrame

print(f"En originals, el número de filas es {df_originals.shape[0]} con {df_originals.shape[1]} columnas.")
print(f"En titles, el número de filas es {df_titles.shape[0]} con {df_titles.shape[1]} columnas.")

En originals, el número de filas es 513 con 7 columnas.
En titles, el número de filas es 8807 con 13 columnas.


In [107]:
# Variable con los nombres de las columnas del DataFrame de las variables categóricas
originals_cat = df_originals.select_dtypes(include = "object").columns
print(f"Las columnas del DataFrame de variables categóricas son {originals_cat}")

# Valores únicos y sus frecuencias de cada columna
for columna in originals_cat:
    print(f" \n----------- ESTAMOS ANALIZANDO LA COLUMNA: '{columna.upper()}' -----------\n")
    #print(f"Sus valores únicos son: {df_originals[columna].unique()}\n")
    print(f"Las frecuencias de los valores únicos de las categorías son: {df_originals[columna].value_counts()} ")

Las columnas del DataFrame de variables categóricas son Index(['Title', 'Genre', 'Premiere', 'Language'], dtype='object')
 
----------- ESTAMOS ANALIZANDO LA COLUMNA: 'TITLE' -----------

Las frecuencias de los valores únicos de las categorías son: Title
Enter the Anime                             1
Sand Castle                                 1
Paper Lives                                 1
Night in Paradise                           1
Moxie                                       1
                                           ..
Rajma Chawal                                1
Operation Christmas Drop                    1
Mascots                                     1
Let It Snow                                 1
David Attenborough: A Life on Our Planet    1
Name: count, Length: 513, dtype: int64 
 
----------- ESTAMOS ANALIZANDO LA COLUMNA: 'GENRE' -----------

Las frecuencias de los valores únicos de las categorías son: Genre
Documentary                             132
Drama                 

Alguna información valiosa:

* Los géneros más comunes son Documentary (132), Drama (73), Comedy (42), Romantic comedy (35), Thriller (33)

* Las fechas más frecuentes de estreno son November 1, 2019 (5); October 18, 2019 (5); October 2, 2020 (5)

* Los idiomas más comunes son English(352), Hindi (28), Spanish (26), French (18), Italian (14)

In [106]:
# Columnas categóricas
titles_cat = df_titles.select_dtypes(include = "object").columns
print(f"Las columnas del DataFrame de variables categóricas son {titles_cat}")

# Recorremos las columnas para sacar sus valores únicos y sus frecuencias
for columna in titles_cat:
    print(f" \n----------- ESTAMOS ANALIZANDO LA COLUMNA: '{columna.upper()}' -----------\n")
    #print(f"Sus valores únicos son: {df_titles[columna].unique()}\n")
    print(f"Las frecuencias de los valores únicos de las categorías son: {df_titles[columna].value_counts()} ")

Las columnas del DataFrame de variables categóricas son Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'rating', 'duration', 'listed_in', 'description'],
      dtype='object')
 
----------- ESTAMOS ANALIZANDO LA COLUMNA: 'SHOW_ID' -----------

Las frecuencias de los valores únicos de las categorías son: show_id
s1       1
s5875    1
s5869    1
s5870    1
s5871    1
        ..
s2931    1
s2930    1
s2929    1
s2928    1
s8807    1
Name: count, Length: 8807, dtype: int64 
 
----------- ESTAMOS ANALIZANDO LA COLUMNA: 'TYPE' -----------

Las frecuencias de los valores únicos de las categorías son: type
Movie      6131
TV Show    2676
Name: count, dtype: int64 
 
----------- ESTAMOS ANALIZANDO LA COLUMNA: 'TITLE' -----------

Las frecuencias de los valores únicos de las categorías son: title
Dick Johnson Is Dead                     1
Ip Man 2                                 1
Hannibal Buress: Comedy Camisado         1
Turbo FAST                       

Alguna información valiosa es:

* Hay 6131 películas (Movie) y 2676 series (TV Show).

* El país con más películas es United States (2818), seguido por India (972), United Kingdom (419) y Japan (245).

* El día que más películas se estrenaron fue January 1, 2020 (109); seguido de November 1, 2019 (89); March 1, 2018 (75) y December 31, 2019 (74).

* La calificación en términos de audiencia más frecuentes son TV-MA (3207), TV-14 (2160).

#### Valores nulos

In [40]:
# Podemos utilizar el método .info() para comprobar valores nulos

df_originals.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 513 entries, 0 to 512
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  513 non-null    int64  
 1   Title       513 non-null    object 
 2   Genre       513 non-null    object 
 3   Premiere    513 non-null    object 
 4   Runtime     513 non-null    int64  
 5   IMDB Score  513 non-null    float64
 6   Language    513 non-null    object 
dtypes: float64(1), int64(2), object(4)
memory usage: 28.2+ KB


Vemos que en originals no hay valores nulos. Pasemos a comprobar cuántos títulos únicos.

In [41]:
df_titles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Unnamed: 0    8807 non-null   int64 
 1   show_id       8807 non-null   object
 2   type          8807 non-null   object
 3   title         8807 non-null   object
 4   director      6173 non-null   object
 5   cast          7982 non-null   object
 6   country       7976 non-null   object
 7   date_added    8797 non-null   object
 8   release_year  8807 non-null   int64 
 9   rating        8803 non-null   object
 10  duration      3994 non-null   object
 11  listed_in     8807 non-null   object
 12  description   8807 non-null   object
dtypes: int64(2), object(11)
memory usage: 894.6+ KB


En titles sí existen valores nulos/faltantes en 'director', 'cast', 'country', 'date_added', 'duration' y 'rating'

#### Títulos únicos

In [31]:
# Podemos utilizar el método .describe() para verlo rápidamente

df_originals.describe(include='object').T

Unnamed: 0,count,unique,top,freq
Title,513,513,Enter the Anime,1
Genre,513,106,Documentary,132
Premiere,513,350,"November 1, 2019",5
Language,513,37,English,352


En el conjunto originals no hay títulos repetidos ya que todos son únicos.

In [42]:
df_titles.describe(include='object').T

Unnamed: 0,count,unique,top,freq
show_id,8807,8807,s1,1
type,8807,2,Movie,6131
title,8807,8807,Dick Johnson Is Dead,1
director,6173,4528,Rajiv Chilaka,19
cast,7982,7692,David Attenborough,19
country,7976,748,United States,2818
date_added,8797,1767,"January 1, 2020",109
rating,8803,17,TV-MA,3207
duration,3994,185,2 Seasons,425
listed_in,8807,514,"Dramas, International Movies",362


En el conjunto titles vemos de nuevo que todos los valores del título son únicos de forma que no hay títulos duplicados.

#### Géneros

En originals tenemos un total de 106 géneros, como podemos ver en en el DataFrame anterior utilizando .describe()

In [55]:
# Para ver mejor la distribución podemos utilizar .value_counts()

df_originals['Genre'].value_counts()

Genre
Documentary                             132
Drama                                    73
Comedy                                   42
Romantic comedy                          35
Thriller                                 33
                                       ... 
Romance drama                             1
Superhero-Comedy                          1
Political thriller                        1
Dance comedy                              1
Animation/Christmas/Comedy/Adventure      1
Name: count, Length: 106, dtype: int64

Podemos ver que los géneros más populares son:
* Documentary
* Drama
* Comedy
* Romantic comedy
* Thriller

Podríamos agrupar los géneros menos comunes, por ejemplo, en una categoría llamada 'otros' para facilitar la lectura y comprensión de la información.

En titles tenemos un total de 514 géneros, como podemos ver en en el DataFrame anterior utilizando .describe() y mirando la columna 'listed_in'

In [82]:
# Para ver mejor la distribución podemos utilizar .value_counts()

df_titles['listed_in'].value_counts()

listed_in
Dramas, International Movies                          362
Documentaries                                         359
Stand-Up Comedy                                       334
Comedies, Dramas, International Movies                274
Dramas, Independent Movies, International Movies      252
                                                     ... 
Kids' TV, TV Action & Adventure, TV Dramas              1
TV Comedies, TV Dramas, TV Horror                       1
Children & Family Movies, Comedies, LGBTQ Movies        1
Kids' TV, Spanish-Language TV Shows, Teen TV Shows      1
Cult Movies, Dramas, Thrillers                          1
Name: count, Length: 514, dtype: int64

Podemos ver que los géneros más populares son:

* Dramas, International Movies
* Documentaries
* Stand-Up Comedy
* Comedies, Dramas, International Movies
* Dramas, Independent Movies, International Movies

Al igual que antes, podríamos agrupar los géneros menos comunes, por ejemplo, en una categoría llamada 'otros' para facilitar la lectura y comprensión de la información.

Sin embargo, vemos que en titles es un poco más complicado de ver. Como no hay categoría Genre sino listed_in, se lista todos los géneros en los que se encuentra la película o serie.

Por ello, podemos separar los diferentes géneros en cada entrada de la columna:

In [86]:
# Hacemos un DataFrame con listed_in
df_genres = df_titles.loc[:, 'listed_in']
df_genres

0                                           Documentaries
1         International TV Shows, TV Dramas, TV Mysteries
2       Crime TV Shows, International TV Shows, TV Act...
3                                  Docuseries, Reality TV
4       International TV Shows, Romantic TV Shows, TV ...
                              ...                        
8802                       Cult Movies, Dramas, Thrillers
8803               Kids' TV, Korean TV Shows, TV Comedies
8804                              Comedies, Horror Movies
8805                   Children & Family Movies, Comedies
8806       Dramas, International Movies, Music & Musicals
Name: listed_in, Length: 8807, dtype: object

In [89]:
# Lista para almacenar los géneros, aunque se repitan
genres = []

# Buscamos en cada elemento de la columna de géneros
for item in df_titles['listed_in']:
    # Dividimos el string por el separador correspondiente e iteramos la lista
    for genre in item.split(', '):
        # Añadimos todo a la lista
        genres.append(genre)

In [97]:
# Contamos los únicos
print(f"El número total de géneros (únicos) es {pd.Series(genres).value_counts().shape[0]}")
# Mostramos la distribución
print(f"\nLa distribución de frecuencias de los géneros es: \n{pd.Series(genres).value_counts()}")

El número total de géneros (únicos) es 42

La distribución de frecuencias de los géneros es: 
International Movies            2752
Dramas                          2427
Comedies                        1674
International TV Shows          1351
Documentaries                    869
Action & Adventure               859
TV Dramas                        763
Independent Movies               756
Children & Family Movies         641
Romantic Movies                  616
TV Comedies                      581
Thrillers                        577
Crime TV Shows                   470
Kids' TV                         451
Docuseries                       395
Music & Musicals                 375
Romantic TV Shows                370
Horror Movies                    357
Stand-Up Comedy                  343
Reality TV                       255
British TV Shows                 253
Sci-Fi & Fantasy                 243
Sports Movies                    219
Anime Series                     176
Spanish-Language T

In [250]:
# Lista para almacenar los géneros, aunque se repitan
actors = []

# Buscamos en cada elemento de la columna de cast
for item in df_titles['cast']:
    # Dividimos el string por el separador correspondiente e iteramos la lista, si no es NaN
    if type(item) == str:
        for actor in item.split(', '):
            # Añadimos todo a la lista
            actors.append(actor)

In [252]:
# Contamos los únicos
print(f"El número total de actores (únicos) es {pd.Series(actors).value_counts().shape[0]}")
# Mostramos la distribuciónprint(f"\nLa distribución de frecuencias de los géneros es: \n{pd.Series(actors).value_counts()}")

El número total de actores (únicos) es 36439

La distribución de frecuencias de los géneros es: 
Anupam Kher                43
Shah Rukh Khan             35
Julie Tejwani              33
Naseeruddin Shah           32
Takahiro Sakurai           32
                           ..
Maryam Zaree                1
Melanie Straub              1
Gabriela Maria Schmeide     1
Helena Zengel               1
Chittaranjan Tripathy       1
Name: count, Length: 36439, dtype: int64


Vemos que los actores más representativos son:

* Anupam Kher                43
* Shah Rukh Khan             35
* Julie Tejwani              33
* Naseeruddin Shah           32
* Takahiro Sakurai           32

Nota: hay que tener en cuenta que en algunas entradas no se han recogido los actores, lo que puede sesgar la muestra

---

## Parte 2 Unión de datos

Podemos tratar de unir los DataFrame por título, que es la columna común. Antes de nada filtraremos las columnas iniciales que no proporcionan información relevante

In [151]:
df_originals_filtrado = df_originals.iloc[:, 1:]
df_originals_filtrado.head(1)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese


In [153]:
df_titles_filtrado = df_titles.iloc[:, 2:]
df_titles_filtrado.head(1)

Unnamed: 0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."


Hacemos un merge por título con how = 'right' para quedarnos con todos los títulos, no solo con los originales. 

Nota: En este caso, como todos los originales están contenidos en títulos, da igual hacer right que outer (y left que inner).

In [154]:
df_combined = df_originals_filtrado.merge(df_titles_filtrado, how = 'right', left_on='Title', right_on='title')

In [159]:
df_combined.sample(5)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
8195,,,,,,,Movie,The Art of the Steal,Jonathan Sobol,"Kurt Russell, Jay Baruchel, Katheryn Winnick, ...","Canada, United States","December 8, 2018",2013,R,90 min,"Action & Adventure, Comedies, Independent Movies","Crunch Calhoun, a daredevil motorcyclist and m..."
5797,Extremis,Documentary,"September 13, 2016",24.0,7.3,English,Movie,Extremis,Dan Krauss,,United States,"September 13, 2016",2016,TV-PG,25 min,Documentaries,Witness the wrenching emotions that accompany ...
4223,,,,,,,Movie,Pokémon the Movie: I Choose You!,Kunihiko Yuyama,"Ikue Otani, Sarah Natochenny, David Oliver Nel...",Japan,"January 1, 2019",2017,TV-Y7,,"Anime Features, Children & Family Movies",When Ash tries to pick his first Pokémon on hi...
8276,,,,,,,Movie,The Devil Inside,William Brent Bell,"Fernanda Andrade, Simon Quarterman, Evan Helmu...",United States,"November 20, 2019",2012,R,84 min,"Horror Movies, Thrillers","At once spooky and grisly, this thriller follo..."
2101,,,,,,,TV Show,Baewatch: Parental Guidance,,,,"August 22, 2020",2019,TV-MA,,"British TV Shows, Reality TV, Romantic TV Shows",Couples go on a romantic getaway to test their...


In [160]:
print(f"las filas y columnas que tenemos en el DataFrame combinado son {df_combined.shape}")
print("-------------------------------------------------------------------")

las filas y columnas que tenemos en el DataFrame combinado son (8807, 17)
-------------------------------------------------------------------


In [161]:
print(f"los nombres de columnas que tenemos en el DataFrame combinado son \n\n{df_combined.columns}")
print("-------------------------------------------------------------------")

los nombres de columnas que tenemos en el DataFrame combinado son 

Index(['Title', 'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language',
       'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description'],
      dtype='object')
-------------------------------------------------------------------


In [164]:
# Limpiemos las columnas que no nos interesan
df_combined.drop(columns=['Title', 'Premiere'], inplace=True)

* Como todas las entradas de originals pertenecen a titles, hay 513 títulos originales de Netflix.

* No podemos conocer las diferencias de puntuación de IMDB ya que para titles no están disponibles.

In [196]:
# Guardar conjunto de datos
df_combined.to_csv("combined_netflix.csv")

---

## Parte 3 Uso de `loc` e `iloc`

Contenido 'Movies'

In [214]:
df_combined.loc[df_combined['type'] == 'Movie', :].sample(3)

Unnamed: 0,Genre,Runtime,IMDB Score,Language,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
8761,,,,,Movie,Wrong No.,Yasir Nawaz,"Javed Sheikh, Danish Taimoor, Janita Asma, Nay...",Pakistan,"July 1, 2017",2015,TV-14,133 min,"Comedies, International Movies, Romantic Movies",Two identical strangers pursue their respectiv...
8186,,,,,Movie,The Age of Shadows,Jee-woon Kim,"Kang-ho Song, Gong Yoo, Ji-min Han, Tae-goo Eo...",South Korea,"January 1, 2018",2016,TV-MA,140 min,"Action & Adventure, Dramas, International Movies","Formerly a Korean resistance fighter, a police..."
7352,,,,,Movie,Love You... Love You Not,Sridhar Jetty,"Chelsea Islan, Hamish Daud, Miller Khan, Kemal...",Indonesia,"January 5, 2019",2015,TV-14,,"Comedies, International Movies, Romantic Movies",A love triangle gets complicated when a female...


Títulos y diración de los TV Show

In [213]:
df_combined.loc[df_combined['type'] == 'TV Show', ['title', 'duration']].sample(3)

Unnamed: 0,title,duration
5774,Old Money,
1961,The Playbook,
4012,My Pride,


United States

In [212]:
df_combined.loc[df_combined['country'] == 'United States', :].sample(3)

Unnamed: 0,Genre,Runtime,IMDB Score,Language,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
8229,,,,,Movie,The Bucket List,Rob Reiner,"Jack Nicholson, Morgan Freeman, Sean Hayes, Be...",United States,"October 1, 2019",2007,PG-13,,"Comedies, Dramas",Two terminally ill men bust out of the cancer ...
5496,Documentary,97.0,6.4,English,Movie,The Mars Generation,Michael Barnett,"Neil deGrasse Tyson, Bill Nye, Michio Kaku",United States,"May 5, 2017",2017,TV-PG,98 min,"Children & Family Movies, Documentaries","Self-professed teenage ""space nerds"" at Space ..."
1949,,,,,TV Show,The Good Place,,"Kristen Bell, Ted Danson, William Jackson Harp...",United States,"September 26, 2020",2020,TV-14,,TV Comedies,"Due to an error, self-absorbed Eleanor Shellst..."


title y director

In [211]:
df_combined.loc[df_combined['type'] == 'Movie', ['title', 'director']].sample(3)

Unnamed: 0,title,director
5378,D.L. Hughley: Clear,Jay Chapman
619,Deranged,Jameel Buari
7510,Morris from America,Chad Hartigan


title y listed_in de 2018

In [210]:
df_combined.loc[df_combined['release_year'] == 2018, ['title', 'director']].sample(3)

Unnamed: 0,title,director
6351,Bobby Robson: More Than a Manager,"Gabriel Clarke, Torquil Jones"
7617,NOVA: The Impossible Flight,"Noel Dockstader, Quinn Kanaly"
4806,Calibre,Matt Palmer


Sin director

In [209]:
df_combined.loc[df_combined['director'].isnull(), 'title'].sample(3)

1473    Chilling Adventures of Sabrina
8684                           Vroomiz
1765                 The Garfield Show
Name: title, dtype: object

5 primeras filas, title director country

In [207]:
df_combined.iloc[:, [5, 6, 8]].head()

Unnamed: 0,title,director,country
0,Dick Johnson Is Dead,Kirsten Johnson,United States
1,Blood & Water,,South Africa
2,Ganglands,Julien Leclercq,
3,Jailbirds New Orleans,,
4,Kota Factory,,India


5 últimas filas, title description

In [206]:
df_combined.iloc[:, [5, -1]].tail()

Unnamed: 0,title,description
8802,Zodiac,"A political cartoonist, a crime reporter and a..."
8803,Zombie Dumb,"While living alone in a spooky town, a young g..."
8804,Zombieland,Looking to survive in a world taken over by zo...
8805,Zoom,"Dragged from civilian life, a former superhero..."
8806,Zubaan,A scrappy but poor boy worms his way into a ty...


10 primeras filas, 2 a 5 columna

In [218]:
df_combined.iloc[:, 1:5].head(10)

Unnamed: 0,Runtime,IMDB Score,Language,type
0,90.0,7.5,English,Movie
1,,,,TV Show
2,,,,TV Show
3,,,,TV Show
4,,,,TV Show
5,,,,TV Show
6,,,,Movie
7,,,,Movie
8,,,,TV Show
9,,,,Movie


7 últimas title director country

In [222]:
df_combined.iloc[:, [5,6,8]].tail(7)

Unnamed: 0,title,director,country
8800,Zindagi Gulzar Hai,,Pakistan
8801,Zinzana,Majid Al Ansari,"United Arab Emirates, Jordan"
8802,Zodiac,David Fincher,United States
8803,Zombie Dumb,,
8804,Zombieland,Ruben Fleischer,United States
8805,Zoom,Peter Hewitt,United States
8806,Zubaan,Mozez Singh,India


Filas 15 - 25 y 4 primeras columnas

In [225]:
# Todo es NaN
df_combined.iloc[14:25, :4]

Unnamed: 0,Genre,Runtime,IMDB Score,Language
14,,,,
15,,,,
16,,,,
17,,,,
18,,,,
19,,,,
20,,,,
21,,,,
22,,,,
23,,,,


Filas 20 -30 columnas title release_year rating

In [227]:
df_combined.iloc[19:30, [5, 10, 11]]

Unnamed: 0,title,release_year,rating
19,Jaguar,2021,TV-MA
20,Monsters Inside: The 24 Faces of Billy Milligan,2021,TV-14
21,Resurrection: Ertugrul,2018,TV-14
22,Avvai Shanmughi,1996,TV-PG
23,Go! Go! Cory Carson: Chrissy Takes the Wheel,2021,TV-Y
24,Jeans,1998,TV-14
25,Love on the Spectrum,2021,TV-14
26,Minsara Kanavu,1997,TV-PG
27,Grown Ups,2010,PG-13
28,Dark Skies,2013,PG-13
