# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.

   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

### Parte 1: Análisis Exploratorio de Datos (EDA)

In [575]:
import pandas as pd

In [576]:
pd.set_option("display.max_columns", None)

In [577]:
df_originals = pd.read_csv("../DATOS/netflix_originals.csv", index_col=0)
df_titles = pd.read_csv("../DATOS/netflix_titles.csv", index_col=0)

In [578]:
df_originals.head(1)


Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese


In [579]:
df_titles.head(1)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."


#### NETFLIX_ORIGINALS

Cargamos el archivo netflix_originalas para empezar con el análisis exploratorio.

In [580]:
df_originals.head()

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi


Para asegurarnos que, cuando juntemos las dos bases de datos, podamos diferenciar las películas originales, añadimos una columna llamada ''Originals'' y que responda Sí en todas las filas.

In [581]:
df_originals["Originals"] = "Sí"

In [582]:
df_originals.head()

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originals
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese,Sí
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish,Sí
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian,Sí
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English,Sí
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi,Sí


Identificación de variables: identificamos todas las variables a través de las columnas presentes en la tabla. Así podremos comprender qué aspectos se registran o se miden.

In [583]:
df_originals.columns

Index(['Title', 'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language',
       'Originals'],
      dtype='object')

Tipos de datos: para saber qué tipos de datos tiene cada variable, lo desglosamos a través de .info() para poder estudiarlos.

In [584]:
df_originals.info()

<class 'pandas.core.frame.DataFrame'>
Index: 513 entries, 0 to 583
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Title       513 non-null    object 
 1   Genre       513 non-null    object 
 2   Premiere    513 non-null    object 
 3   Runtime     513 non-null    int64  
 4   IMDB Score  513 non-null    float64
 5   Language    513 non-null    object 
 6   Originals   513 non-null    object 
dtypes: float64(1), int64(1), object(5)
memory usage: 32.1+ KB


#### Datos estadísticos

In [585]:
round(df_originals.describe(),2)

Unnamed: 0,Runtime,IMDB Score
count,513.0,513.0
mean,94.67,6.21
std,26.65,0.97
min,4.0,2.5
25%,87.0,5.6
50%,97.0,6.3
75%,108.0,6.9
max,209.0,9.0


En los datos estadísticos de las variables numéricas podemos observar lo siguiente: 

**count**: Vemos que en ninguna de las dos columnas hay valores nulos.
mean: Vemos la media de la duración de la producción en minutos (runtime) y de la puntuación en IMDB (IMDB score).
**std**: La desviación estándar de ambos datos. Aquí podemos observar lo siguiente: 

- `RUNTIME`: La desviación estándar es 26.65, lo que indica una dispersión considerable respecto a la media.
Esto significa que los datos están relativamente dispersos: muchos valores probablemente están a más de 26.6 unidades del promedio. Es posible que haya mayor heterogeneidad en los datos.

- `IMDB score`: La desviación estándar es 0.97, lo que indica poca dispersión alrededor de la media.
Los datos están más concentrados cerca del promedio, mostrando menor variabilidad.

**min**: El valor mínimo de cada una de las variables. Podemos ver que la puntuación más baja de IMDB es de 2.50.

**25%**: Representa el valor por debajo del cual se encuentra el 25% del tiempo de producción y que solo el 25% de las puntuaciones están por debajo de 5.60.

**50%**: Representa la mediana de ambas variables.

**75%**: El valor por debajo del cual están el 75% de los datos. Podemos decir que la mayoría de las producciones están por debajo de 6.90 de puntuación en IMDB.

**max**: El valor máximo de cada variable en el conjunto de datos.

#### Datos categóricos

In [586]:
df_originals.describe(include="object")

Unnamed: 0,Title,Genre,Premiere,Language,Originals
count,513,513,513,513,513
unique,513,106,350,37,1
top,Enter the Anime,Documentary,"November 1, 2019",English,Sí
freq,1,132,5,352,513


En el caso de los valores categóricos podemos sacar las siguientes conclusiones: 

**count**: Numero de observaciones no nulas en cada columna. No hay ninguna columna con nulos.

**unique**: Podemos apreciar como hay un total de 106 géneros diferentes y 37 idiomas.

**top**: El valor más común de cada columna. "Enter de Anime" es el título más repetido, "Documentary" el género, "November 1, 2019" la fecha y "English" el idioma.

**freq**: La frecuencia del valor más común. Destacamos el ingés que está en un total de 352 valores.

Para analizar los valores únicos más llamativos, nos vamos a centrar en la columna Genre que es la más importante en este aspecto:

In [587]:
pd.DataFrame(df_originals["Genre"].value_counts().head(10))

Unnamed: 0_level_0,count
Genre,Unnamed: 1_level_1
Documentary,132
Drama,73
Comedy,42
Romantic comedy,35
Thriller,33
Comedy-drama,14
Crime drama,10
Horror,9
Biopic,8
Action,7


Aquí podemos ver el top 10 de géneros más repetidos y podemos afirmar que los "Documentary" son los más repetidos y con bastante recurrencia, representan casi el doble con respecto al los "Drama" que están en segundo lugar. Por último, cierra el top 3 los "Comedy".

In [588]:
df_cat = df_originals.select_dtypes(include = "object")
df_cat.head()

Unnamed: 0,Title,Genre,Premiere,Language,Originals
0,Enter the Anime,Documentary,"August 5, 2019",English/Japanese,Sí
1,Dark Forces,Thriller,"August 21, 2020",Spanish,Sí
2,The App,Science fiction/Drama,"December 26, 2019",Italian,Sí
3,The Open House,Horror thriller,"January 19, 2018",English,Sí
4,Kaali Khuhi,Mystery,"October 30, 2020",Hindi,Sí


Hacemos un bucle for para iterar entre todos los datos de las columnas categóricas. En este caso, al haber muchos datos es un poco difícil de leer, pero podemos estudiar cada dato de una manera muy extensa.

In [589]:
columas_categoricas = df_cat.columns

for columna in columas_categoricas:
    print(f"ANÁLISIS DE LA COLUMNA {columna.upper()}:")
    print(f"Las frecuencias de los valores únicos de las categorías son: {df_cat[columna].value_counts().head(10)}")
    print("      ")

ANÁLISIS DE LA COLUMNA TITLE:
Las frecuencias de los valores únicos de las categorías son: Title
Enter the Anime                       1
Sand Castle                           1
Paper Lives                           1
Night in Paradise                     1
Moxie                                 1
Malcolm & Marie                       1
Little Miss Sumo                      1
Just Another Christmas                1
Imperial Dreams                       1
Hope Frozen: A Quest to Live Twice    1
Name: count, dtype: int64
      
ANÁLISIS DE LA COLUMNA GENRE:
Las frecuencias de los valores únicos de las categorías son: Genre
Documentary        132
Drama               73
Comedy              42
Romantic comedy     35
Thriller            33
Comedy-drama        14
Crime drama         10
Horror               9
Biopic               8
Action               7
Name: count, dtype: int64
      
ANÁLISIS DE LA COLUMNA PREMIERE:
Las frecuencias de los valores únicos de las categorías son: Premiere
Novembe

También utilizaremos el método .dtypes() para saber qué tipos de datos tiene cada columna.

In [590]:
pd.DataFrame(df_originals.dtypes)

Unnamed: 0,0
Title,object
Genre,object
Premiere,object
Runtime,int64
IMDB Score,float64
Language,object
Originals,object


Podemos ver que nuestro DataFrame tiene todos los valores de tipo objetc (strings), excepto la columna Runtime que, como sabemos, corresponde a la duración de la producción en minutos.

En este caso no vamos a analizar los nulos, porque como vimos en el análsis no hay ninguna variable con nulos.

In [591]:
nulos = pd.DataFrame(df_originals.isnull().sum())
nulos.columns = ["Total nulos"]
nulos

Unnamed: 0,Total nulos
Title,0
Genre,0
Premiere,0
Runtime,0
IMDB Score,0
Language,0
Originals,0


Por último estudiaremos si hay valores duplicados en nuestro DataFrame.

In [592]:
df_originals.duplicated().sum()

np.int64(0)

#### NETFLIX_TITLES


In [593]:
df_titles.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


Identificación de variables: identificamos todas las variables a través de las columnas presentes en la tabla. Así podremos comprender qué aspectos se registran o se miden.

In [594]:
df_titles.columns

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description'],
      dtype='object')

Tipos de datos: para saber qué tipos de datos tiene cada variable, lo desglosamos a través de .info() para poder estudiarlos.

In [595]:
df_titles.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      3994 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 894.5+ KB


#### Datos estadísticos

In [596]:
round(df_titles.describe())

Unnamed: 0,release_year
count,8807.0
mean,2014.0
std,9.0
min,1925.0
25%,2013.0
50%,2017.0
75%,2019.0
max,2021.0


En este caso, los datos estadísticos no son muy representativos ya que son fechas y no podemos sacar muchas conclusiones al respecto mñas allá de: 

**min**: el año mínimo es el 1925, es decir, la película más antigua es de 1925.

**25%**: Representa el valor por debajo del cuál se encuentra el 25% de las películas que se han hecho antes de 2013.

**50%**: La mediana de la variable, siendo en 2017

**75%**: El valor por debajo del cuál están el 75% de los datos. Es decir, el 75% de las películas son de antes de 2019 y solo el 25% es después de 2019.

**max**: La película más moderna es de 2021.



#### Datos categóricos

In [597]:
pd.DataFrame(df_titles.describe(include="object").T)

Unnamed: 0,count,unique,top,freq
show_id,8807,8807,s1,1
type,8807,2,Movie,6131
title,8807,8807,Dick Johnson Is Dead,1
director,6173,4528,Rajiv Chilaka,19
cast,7982,7692,David Attenborough,19
country,7976,748,United States,2818
date_added,8797,1767,"January 1, 2020",109
rating,8803,17,TV-MA,3207
duration,3994,185,2 Seasons,425
listed_in,8807,514,"Dramas, International Movies",362


En el caso de los valores categóricos podemos sacar las siguientes conclusiones: 

**count**: Numero de observaciones no nulas en cada columna. En este caso si hay alguna columna con nulos (director, cast, country, date_added y duration). Procederemos a analizarlo más adelante.

**unique**: Destacamos las columnas "type" que tiene dos valores únicos, "rating" que tiene 17 valores únicos, "listed_in" que tiene 514 valores únicos divididos en géneros y "duration" con 185 valores únicos.

**top**: El valor más común de cada columna. Combinándolo con la frecuencia podemos descatar las variables "Movie" y "United States"

**freq**: La frecuencia del valor más común.

Para analizar los valores únicos más llamativos, vamos a ir columna por columna analizando los que más nos interesen:

In [598]:
df_titles.head(1)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."


In [599]:
df_titles["rating"].unique()

array(['PG-13', 'TV-MA', 'PG', 'TV-14', 'TV-PG', 'TV-Y', 'TV-Y7', 'R',
       'TV-G', 'G', 'NC-17', '74 min', '84 min', '66 min', 'NR', nan,
       'TV-Y7-FV', 'UR'], dtype=object)

In [600]:
pd.DataFrame(df_titles["rating"].value_counts())

Unnamed: 0_level_0,count
rating,Unnamed: 1_level_1
TV-MA,3207
TV-14,2160
TV-PG,863
R,799
PG-13,490
TV-Y7,334
TV-Y,307
PG,287
TV-G,220
NR,80


In [601]:
pd.DataFrame(df_titles["duration"].value_counts().head(10))

Unnamed: 0_level_0,count
duration,Unnamed: 1_level_1
2 Seasons,425
90 min,152
98 min,120
104 min,104
107 min,98
110 min,97
116 min,80
112 min,74
85 min,73
113 min,69


In [602]:
pd.DataFrame(df_titles["listed_in"].value_counts().head(10))

Unnamed: 0_level_0,count
listed_in,Unnamed: 1_level_1
"Dramas, International Movies",362
Documentaries,359
Stand-Up Comedy,334
"Comedies, Dramas, International Movies",274
"Dramas, Independent Movies, International Movies",252
Kids' TV,220
Children & Family Movies,215
"Children & Family Movies, Comedies",201
"Documentaries, International Movies",186
"Dramas, International Movies, Romantic Movies",180


In [603]:
df_cat1 = df_titles.select_dtypes(include = "object").head()

In [604]:
columas_categoricas1 = df_cat1.columns

for columna in columas_categoricas1:
    print(f"ANÁLISIS DE LA COLUMNA {columna.upper()}:")
    print("      ")
    print(f"Las frecuencias de los valores únicos de las categorías son: {df_cat1[columna].value_counts().head(15)}")
    print("      ")

ANÁLISIS DE LA COLUMNA SHOW_ID:
      
Las frecuencias de los valores únicos de las categorías son: show_id
s1    1
s2    1
s3    1
s4    1
s5    1
Name: count, dtype: int64
      
ANÁLISIS DE LA COLUMNA TYPE:
      
Las frecuencias de los valores únicos de las categorías son: type
TV Show    4
Movie      1
Name: count, dtype: int64
      
ANÁLISIS DE LA COLUMNA TITLE:
      
Las frecuencias de los valores únicos de las categorías son: title
Dick Johnson Is Dead     1
Blood & Water            1
Ganglands                1
Jailbirds New Orleans    1
Kota Factory             1
Name: count, dtype: int64
      
ANÁLISIS DE LA COLUMNA DIRECTOR:
      
Las frecuencias de los valores únicos de las categorías son: director
Kirsten Johnson    1
Julien Leclercq    1
Name: count, dtype: int64
      
ANÁLISIS DE LA COLUMNA CAST:
      
Las frecuencias de los valores únicos de las categorías son: cast
Ama Qamata, Khosi Ngema, Gail Mabalane, Thabang Molaba, Dillon Windvogel, Natasha Thahane, Arno Gre

In [605]:
pd.DataFrame(df_titles.dtypes)

Unnamed: 0,0
show_id,object
type,object
title,object
director,object
cast,object
country,object
date_added,object
release_year,int64
rating,object
duration,object


In [606]:
nulos1 = pd.DataFrame(df_titles.isnull().sum())
nulos1.columns = ["Total nulos"]
nulos1

Unnamed: 0,Total nulos
show_id,0
type,0
title,0
director,2634
cast,825
country,831
date_added,10
release_year,0
rating,4
duration,4813


Revisamos si en la columna show_id hay algún duplicado

In [607]:
df_titles["show_id"].duplicated().sum()

np.int64(0)

### Parte 2: Unión de Datos

In [608]:
df_originals.head(1)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originals
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese,Sí


In [609]:
df_titles.head(1)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."


In [610]:
print(f"las filas y columnas que tenemos en el df originals son {df_originals.shape}")
print("-------------------------------------------------------------------")


print(f"las filas y columnas que tenemos en el df_titles son {df_titles.shape}")
print("-------------------------------------------------------------------")

las filas y columnas que tenemos en el df originals son (513, 7)
-------------------------------------------------------------------
las filas y columnas que tenemos en el df_titles son (8807, 12)
-------------------------------------------------------------------


In [611]:
print(f"los nombres de columnas que tenemos en el df originals son \n\n{df_originals.columns}")
print("-------------------------------------------------------------------")


print(f"los nombres de columnas que tenemos en el df_titles son \n\n {df_titles.columns}")
print("-------------------------------------------------------------------")

los nombres de columnas que tenemos en el df originals son 

Index(['Title', 'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language',
       'Originals'],
      dtype='object')
-------------------------------------------------------------------
los nombres de columnas que tenemos en el df_titles son 

 Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description'],
      dtype='object')
-------------------------------------------------------------------


In [612]:
df_union = df_originals.merge(df_titles, how = 'outer', left_on="Title", right_on="title")

In [613]:
df_union.shape

(8807, 19)

In [614]:
df_union.sample()

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originals,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
4229,,,,,,,,s7353,Movie,Love You... Love You Not,Sridhar Jetty,"Chelsea Islan, Hamish Daud, Miller Khan, Kemal...",Indonesia,"January 5, 2019",2015,TV-14,,"Comedies, International Movies, Romantic Movies",A love triangle gets complicated when a female...


Para la unión de ambos conjuntos de datos lo que hemos hecho es una unión merge. Si observamos los dos dataframes por separado, vemos que la única columna que tienen en común es la de "Title", por lo que hemos hecho una unión considerando lo siguiente: 

- La tabla de originals la hemos planteado como columna izquierda.
- La tabla de titles la hemos planteado como columna derecha.
- Hems hehco un merge incluyendo un outer para que nos incluya todo de ambas columnas y utiizamos left_on y right_on para dar las dos columnas que tienen en común, ya que los nombres son diferentes. 

El resultado, como podemos ver a continuación es la unión de las dos tablas, con muchos nulos ya que la información que tenemos en la columna originals, es solo para las producciones orginales de Netflix.

In [615]:
df_union.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 19 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Title         513 non-null    object 
 1   Genre         513 non-null    object 
 2   Premiere      513 non-null    object 
 3   Runtime       513 non-null    float64
 4   IMDB Score    513 non-null    float64
 5   Language      513 non-null    object 
 6   Originals     513 non-null    object 
 7   show_id       8807 non-null   object 
 8   type          8807 non-null   object 
 9   title         8807 non-null   object 
 10  director      6173 non-null   object 
 11  cast          7982 non-null   object 
 12  country       7976 non-null   object 
 13  date_added    8797 non-null   object 
 14  release_year  8807 non-null   int64  
 15  rating        8803 non-null   object 
 16  duration      3994 non-null   object 
 17  listed_in     8807 non-null   object 
 18  description   8807 non-null 

Como podemos observar, ahora tenemos algunas columnas que son redundantes, ya que nos dan la misma información: 

**Title**: Esta es la primera columna que debemos borrar, ya que la proporcionada desde originals, tiene 513 datos, frente a los 8807 que tiene la de titles.

**Genre / listed_in**: En este caso son dos columnas muy similares, ya que ambas nos dan las categorías o géneros por los que se clasifica cada título. Igual que en el caso anterior, podemos eliminar la columa "Genre" de la tabla originals, ya que nos da mucha menos información que la de titles.

**Premiere / Date_added / release_year**: Por un lado tenemos "Premiere" que es la fecha de estreno de la producción (original) en Netflix. Por otro "date_added" que indica la fecha en la que el título fue añadido al catálogo de Netflix y, por último, "release_year" que es el año en el que el título fue lanzado o producido. 

Por ello, la columna de Premiere, la podemos eliminar ya que nos da información redundante y solo sobre los datos de los títulos originales.

**Runtime /Duration**: En este caso podemos observar cómo hay datos en la columna duration que están vacíos, pero que se complementan con la columna Runtime de originals, por lo que haremos una nueva columna llamada "duration" combinando estas dos variables para eliminar cualquier dato nulo.





In [616]:
#Eliminamos la columna de title:
df_union.drop("Title", axis=1, inplace = True)

In [617]:
#Eliminamos la columna de Premiere:
df_union.drop("Premiere", axis=1, inplace = True)


In [618]:
#Eliminamos la columna Genre:
df_union.drop("Genre", axis=1, inplace = True)

In [619]:
df_union.sample()

Unnamed: 0,Runtime,IMDB Score,Language,Originals,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
3199,,,,,s7016,Movie,How to Be a Player,Lionel C. Martin,"Bill Bellamy, Natalie Desselle, Lark Voorhies,...",United States,"November 1, 2019",1997,R,,Comedies,Dray lives life one woman at a time and is the...


In [620]:
#Ahora añadimos la nueva columna "Duration_" donde combiaremos los datos de Runtime y duration
df_union["Duration_"] = df_union["duration"].combine_first(df_union["Runtime"])

In [621]:
df_union.sample()

Unnamed: 0,Runtime,IMDB Score,Language,Originals,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Duration_
2035,,,,,s789,Movie,Domestic Disturbance,Harold Becker,"John Travolta, Vince Vaughn, Teri Polo, Matt O...",United States,"June 2, 2021",2001,PG-13,,Thrillers,A recovering alcoholic is skeptical of his son...,


 - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

In [622]:
#Contamos el total de títulos originales que hay en la lista unida.
total_originales = df_union["Originals"].count()
print(f"El total de títulos originales es de {total_originales} títulos.")

El total de títulos originales es de 513 títulos.


### Parte 3: Uso de `loc` e `iloc`

In [623]:
df_union.sample()

Unnamed: 0,Runtime,IMDB Score,Language,Originals,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Duration_
4982,,,,,s60,Movie,Naruto Shippuden: The Movie,Hajime Kamegaki,"Junko Takeuchi, Chie Nakamura, Yoichi Masukawa...",Japan,"September 15, 2021",2007,TV-PG,,"Action & Adventure, Anime Features, Internatio...",The adventures of adolescent ninja Naruto Uzum...,


 #### 1. **Filtrado de datos con `loc`:**

- Selecciona todas las filas donde el tipo de contenido sea “Movie”.

In [627]:
movies = df_union["type"] == "Movie"
df_union[movies].head(5)

Unnamed: 0,Runtime,IMDB Score,Language,Originals,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Duration_
0,,,,,s2037,Movie,#Alive,Cho Il,"Yoo Ah-in, Park Shin-hye",South Korea,"September 8, 2020",2020,TV-MA,,"Horror Movies, International Movies, Thrillers","As a grisly virus rampages a city, a lone man ...",
1,,,,,s2305,Movie,#AnneFrank - Parallel Stories,"Sabina Fedeli, Anna Migotto","Helen Mirren, Gengher Gatti",Italy,"July 1, 2020",2019,TV-14,,"Documentaries, International Movies","Through her diary, Anne Frank's story is retol...",
2,,,,,s2482,Movie,#FriendButMarried,Rako Prijanto,"Adipati Dolken, Vanesha Prescilla, Rendi Jhon,...",Indonesia,"May 21, 2020",2018,TV-G,,"Dramas, International Movies, Romantic Movies","Pining for his high school crush for years, a ...",
3,,,,,s2325,Movie,#FriendButMarried 2,Rako Prijanto,"Adipati Dolken, Mawar de Jongh, Sari Nila, Von...",Indonesia,"June 28, 2020",2020,TV-G,104 min,"Dramas, International Movies, Romantic Movies",As Ayu and Ditto finally transition from best ...,104 min
4,,,,,s5974,Movie,#Roxy,Michael Kennedy,"Jake Short, Sarah Fisher, Booboo Stewart, Dann...",Canada,"April 10, 2019",2018,TV-14,,"Comedies, Romantic Movies",A teenage hacker with a huge nose helps a cool...,


 - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

In [650]:
tv_show = df_union[df_union["type"] == "TV Show"][["title", "duration", "type"]]

print(tv_show.shape)
pd.DataFrame(tv_show).head(10)

(2676, 3)


Unnamed: 0,title,duration,type
8,#blackAF,,TV Show
14,(Un)Well,,TV Show
20,100 Days My Prince,,TV Show
22,100 Humans,,TV Show
27,100% Hotter,,TV Show
30,12 Years Promise,,TV Show
33,13 Reasons Why,,TV Show
34,13 Reasons Why: Beyond the Reasons,,TV Show
50,1983,,TV Show
51,1994,,TV Show


   - Selecciona todas las filas donde el país sea “United States”.

In [651]:
eeuu = df_union[df_union["country"]== "United States"][["title", "country"]]
print(eeuu.shape)
pd.DataFrame(eeuu).head(10)

(2818, 2)


Unnamed: 0,title,country
5,#Rucker50,United States
8,#blackAF,United States
10,#realityhigh,United States
13,(T)ERROR,United States
14,(Un)Well,United States
15,1 Chance 2 Dance,United States
16,1 Mile to You,United States
22,100 Humans,United States
24,100 Things to do Before High School,United States
25,100 Years: One Woman's Fight for Justice,United States


 - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

In [654]:
movie_type = df_union[df_union["type"] == "Movie"][["title", "director"]]
print(movie_type.shape)
pd.DataFrame(movie_type).head(10)

(6131, 2)


Unnamed: 0,title,director
0,#Alive,Cho Il
1,#AnneFrank - Parallel Stories,"Sabina Fedeli, Anna Migotto"
2,#FriendButMarried,Rako Prijanto
3,#FriendButMarried 2,Rako Prijanto
4,#Roxy,Michael Kennedy
5,#Rucker50,Robert McCullough Jr.
6,#Selfie,Cristina Jacob
7,#Selfie 69,Cristina Jacob
9,#cats_the_mewvie,Michael Margolis
10,#realityhigh,Fernando Lebrija


- Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

In [655]:
df_union.sample()

Unnamed: 0,Runtime,IMDB Score,Language,Originals,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Duration_
3893,,,,,s155,TV Show,Kuroko's Basketball,,"Kensho Ono, Yuki Ono, Chiwa Saito, Yoshimasa H...",Japan,"September 1, 2021",2015,TV-MA,,"Anime Series, International TV Shows, Teen TV ...",Five middle school basketball stars went to se...,


In [660]:
año_2018 = df_union[df_union["release_year"]== 2018][["title", "listed_in"]]
print(año_2018.shape)
pd.DataFrame(año_2018).head(10)

(1147, 2)


Unnamed: 0,title,listed_in
2,#FriendButMarried,"Dramas, International Movies, Romantic Movies"
4,#Roxy,"Comedies, Romantic Movies"
20,100 Days My Prince,"International TV Shows, Romantic TV Shows, TV ..."
21,100 Days Of Solitude,"Documentaries, International Movies"
39,14 Cameras,"Horror Movies, Thrillers"
50,1983,"Crime TV Shows, International TV Shows, TV Dramas"
53,1st Summoning,"Horror Movies, Independent Movies"
58,2215,"Documentaries, International Movies, Sports Mo..."
63,2036 Origin Unknown,Sci-Fi & Fantasy
68,21 Sarfarosh: Saragarhi 1897,"International TV Shows, TV Dramas"


- Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

In [666]:
director_vacio = df_union[df_union["director"].isnull()][["title"]]
print(director_vacio.shape)
pd.DataFrame(director_vacio).head(10)

(2634, 1)


Unnamed: 0,title
8,#blackAF
12,'89
14,(Un)Well
20,100 Days My Prince
21,100 Days Of Solitude
22,100 Humans
24,100 Things to do Before High School
27,100% Hotter
30,12 Years Promise
33,13 Reasons Why
