<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.

   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

## Parte 1

* Carga de datos

In [2]:
import pandas as pd
pd.set_option("display.max_columns",None)

In [3]:
original = pd.read_csv("datos/netflix_originals.csv", index_col=0)
titles = pd.read_csv("datos/netflix_titles.csv", index_col=0)

* Análisis df

In [4]:
# Estructura de cada df
print (original.shape[0], original.shape[1])
print (titles.shape[0], titles.shape[1])

513 6
8807 12


In [7]:
# Tipo de datos df original
original.dtypes

Title          object
Genre          object
Premiere       object
Runtime         int64
IMDB Score    float64
Language       object
dtype: object

In [8]:
# Tipo de datos df titles
titles.dtypes

show_id         object
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object

In [12]:
# Columnas en cada df
print(original.columns)
print(titles.columns)

Index(['Title', 'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language'], dtype='object')
Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description'],
      dtype='object')


In [13]:
# Estadisticos df original
original.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Runtime,513.0,94.674464,26.648121,4.0,87.0,97.0,108.0,209.0
IMDB Score,513.0,6.210916,0.96885,2.5,5.6,6.3,6.9,9.0


In [14]:
original.describe(include="O").T

Unnamed: 0,count,unique,top,freq
Title,513,513,David Attenborough: A Life on Our Planet,1
Genre,513,106,Documentary,132
Premiere,513,350,"October 18, 2019",5
Language,513,37,English,352


In [15]:
# Estadisticos df titles
titles.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
release_year,8807.0,2014.180198,8.819312,1925.0,2013.0,2017.0,2019.0,2021.0


In [16]:
titles.describe(include="O").T

Unnamed: 0,count,unique,top,freq
show_id,8807,8807,s8807,1
type,8807,2,Movie,6131
title,8807,8807,Zubaan,1
director,6173,4528,Rajiv Chilaka,19
cast,7982,7692,David Attenborough,19
country,7976,748,United States,2818
date_added,8797,1767,"January 1, 2020",109
rating,8803,17,TV-MA,3207
duration,3994,185,2 Seasons,425
listed_in,8807,514,"Dramas, International Movies",362


In [17]:
#Info DF
original.info()

<class 'pandas.core.frame.DataFrame'>
Index: 513 entries, 0 to 583
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Title       513 non-null    object 
 1   Genre       513 non-null    object 
 2   Premiere    513 non-null    object 
 3   Runtime     513 non-null    int64  
 4   IMDB Score  513 non-null    float64
 5   Language    513 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 28.1+ KB


In [18]:
titles.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      3994 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 894.5+ KB


In [19]:
# Nulos
original.isnull().sum()

Title         0
Genre         0
Premiere      0
Runtime       0
IMDB Score    0
Language      0
dtype: int64

In [20]:
titles.isnull().sum()

show_id            0
type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration        4813
listed_in          0
description        0
dtype: int64

In [22]:
# Duplicados
print(original.duplicated().sum())
print(titles.duplicated().sum())


0
0


* Conclusiones

Tras analizar la estructura de ambos dataframes he podido llegar a las siguientes conclusiones generales;
- Ambos df comparten la columna "title" aunque habría que modificar el nombre en el df "original" ya que tiene la primera letra en mayúscula y podría generar error en la unión.
- En ambos df hay una columna con un tipo de dato que hace referencia a fecha y está identificado como objeto. Dichas columnas son: "Premiere" y "Date addded"
- En el df title, la columna "duration" tiene tipo de dato object y debe ser int
- En ambos df todos los títulos son únicos por lo que no hay duplicados
- En el df original no hay nulos mientras que en el df titltes hay varias columnas que contienen nulos (6). Las columnas "director" y "duration" tienen un numero de nulos significativo y se debería valorar.
- Para ambos df sería de valor añadir una columna única que almacene el valor dia, mes y año para poder realizar un mejor análisis temporal.

## Parte 2

In [None]:
titles["titulo"] = "si"
original["original"] = "si"

In [92]:
original.rename(columns = {"Title" : "title"}, inplace = True)

In [93]:
original.columns

Index(['title', 'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language',
       'original'],
      dtype='object')

In [148]:
df_concat = original.merge(titles, how='outer')
df_concat.shape

(8807, 19)

He elegido unirlo con la opcion outer ya que de este modo une las filas que están en ambos df sin duplicar aquellos que están en ambos

In [149]:
df_concat.columns

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description',
       'titulo', 'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language',
       'original'],
      dtype='object')

In [150]:
titles[titles.title.isin(original.title)].value_counts("titulo")

titulo
si    513
Name: count, dtype: int64

In [168]:
filtro1 = df_concat['original'] == "si"
filtro2 = df_concat['original'] != "si"
originales = df_concat[filtro1]
no_originales = df_concat[filtro2]
print(originales["IMDB Score"].mean())
print(no_originales["IMDB Score"].mean())
print("Las series no originales no tienen puntuacion registrada en IMDB")

6.210916179337231
nan
Las series no originales no tienen puntuacion registrada en IMDB


## Parte 3

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

In [196]:
peliculas = df_concat.loc[df_concat.type == "Movie"]
peliculas

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,titulo,Genre,Premiere,Runtime,IMDB Score,Language,original
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",si,Documentary,"October 2, 2020",90.0,7.5,English,si
1,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,"September 24, 2021",2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,si,,,,,,
3,s1000,Movie,Stowaway,Joe Penna,"Anna Kendrick, Toni Collette, Daniel Dae Kim, ...","Germany, United States","April 22, 2021",2021,TV-MA,116 min,"Dramas, International Movies, Thrillers",A three-person crew on a mission to Mars faces...,si,,,,,,
4,s1001,Movie,Wild Dog,Ahishor Solomon,"Nagarjuna Akkineni, Dia Mirza, Saiyami Kher, A...",,"April 22, 2021",2020,TV-MA,126 min,"Action & Adventure, International Movies",A brash but brilliant Indian intelligence agen...,si,,,,,,
5,s1002,Movie,Oloibiri,Curtis Graham,"Olu Jacobs, Richard Mofe-Damijo, William R. Mo...","Canada, Nigeria, United States","April 21, 2021",2015,TV-14,,"Dramas, International Movies, Thrillers","After drilling depletes a small village, a cor...",si,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8800,s993,Movie,Perfume Imaginary Museum “Time Warp”,"MIKIKO, Daito Manabe",Perfume,,"April 23, 2021",2020,TV-G,54 min,"International Movies, Music & Musicals",This visually stunning special performance was...,si,,,,,,
8802,s995,Movie,This Lady Called Life,Kayode Kasum,"Bisola Aiyeola, Efa Iwara, Molawa Onajobi, Tin...",Nigeria,"April 23, 2021",2020,TV-14,120 min,"Dramas, International Movies, Romantic Movies","Abandoned by her family, young single mother A...",si,,,,,,
8803,s996,Movie,Vizontele,"Yılmaz Erdoğan, Ömer Faruk Sorak","Yılmaz Erdoğan, Demet Akbağ, Altan Erkekli, Ce...",Turkey,"April 23, 2021",2001,TV-MA,,"Comedies, Dramas, International Movies","In 1974, a rural town in Anatolia gets its fir...",si,,,,,,
8804,s997,Movie,HOMUNCULUS,Takashi Shimizu,"Go Ayano, Ryo Narita, Yukino Kishii, Anna Ishi...",Japan,"April 22, 2021",2021,TV-MA,116 min,"Horror Movies, International Movies, Thrillers",Truth and illusion blurs when a homeless amnes...,si,,,,,,


In [194]:
tvshows = df_concat.loc[df_concat["type"] == "TV Show", ["title","duration"]]
tvshows

Unnamed: 0,title,duration
2,On the Verge,
7,Zero,
8,Izzy's Koala World,2 Seasons
13,Tobot Galaxy Detectives,2 Seasons
17,Luis Miguel - The Series,2 Seasons
...,...,...
8785,Kid Cosmic,2 Seasons
8795,Let's Fight Ghost,
8796,Octonauts: Above & Beyond,
8801,Shadow and Bone,


In [195]:
USA = df_concat.loc[df_concat["country"] == "United States", :]
USA

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,titulo,Genre,Premiere,Runtime,IMDB Score,Language,original
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",si,Documentary,"October 2, 2020",90.0,7.5,English,si
1,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,"September 24, 2021",2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,si,,,,,,
16,s1012,Movie,Free to Play,,,United States,"April 19, 2021",2014,TV-14,76 min,Documentaries,This documentary follows three professional vi...,si,,,,,,
20,s1016,Movie,American Me,Edward James Olmos,"Edward James Olmos, William Forsythe, Pepe Ser...",United States,"April 17, 2021",1992,R,126 min,Dramas,Three friends born in poverty create their own...,si,,,,,,
24,s102,Movie,Untold: Breaking Point,"Chapman Way, Maclain Way",,United States,"September 7, 2021",2021,TV-MA,80 min,"Documentaries, Sports Movies",Under pressure to continue a winning tradition...,si,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8775,s970,Movie,August: Osage County,John Wells,"Meryl Streep, Julia Roberts, Chris Cooper, Ewa...",United States,"April 27, 2021",2014,R,121 min,Dramas,"When their father disappears, three strong-wil...",si,,,,,,
8776,s971,Movie,Battle: Los Angeles,Jonathan Liebesman,"Aaron Eckhart, Michelle Rodriguez, Ramon Rodri...",United States,"April 27, 2021",2011,PG-13,116 min,"Action & Adventure, Sci-Fi & Fantasy","Led by their skillful staff sergeant, a platoo...",si,,,,,,
8781,s976,Movie,Shadow and Bone - The Afterparty,,"David Spade, London Hughes, Fortune Feimster, ...",United States,"April 24, 2021",2021,TV-14,33 min,"Action & Adventure, Comedies, Dramas","Stars of Netflix's ""Shadow and Bone"" discuss t...",si,,,,,,
8785,s98,TV Show,Kid Cosmic,,"Jack Fisher, Tom Kenny, Amanda C. Miller, Kim ...",United States,"September 7, 2021",2021,TV-Y7,2 Seasons,"Kids' TV, TV Comedies, TV Sci-Fi & Fantasy",A boy's superhero dreams come true when he fin...,si,,,,,,


In [198]:
director = df_concat.loc[df_concat["type"] == "Movie", ["title","director"]]
director

Unnamed: 0,title,director
0,Dick Johnson Is Dead,Kirsten Johnson
1,The Starling,Theodore Melfi
3,Stowaway,Joe Penna
4,Wild Dog,Ahishor Solomon
5,Oloibiri,Curtis Graham
...,...,...
8800,Perfume Imaginary Museum “Time Warp”,"MIKIKO, Daito Manabe"
8802,This Lady Called Life,Kayode Kasum
8803,Vizontele,"Yılmaz Erdoğan, Ömer Faruk Sorak"
8804,HOMUNCULUS,Takashi Shimizu


In [200]:
pelis2018 = df_concat.loc[df_concat["release_year"] == 2018, ["title","listed_in"]]
pelis2018

Unnamed: 0,title,listed_in
10,Motu Patlu Dino Invasion,"Children & Family Movies, Comedies"
55,Peasants Rebellion,"International TV Shows, TV Dramas"
69,House of Cards,"TV Dramas, TV Thrillers"
83,Motu Patlu in the City of Gold,"Children & Family Movies, Comedies, Music & Mu..."
84,Motu Patlu Kung Fu Kings 4 The Challenge of Ku...,"Children & Family Movies, Music & Musicals"
...,...,...
8752,Show Dogs,"Children & Family Movies, Comedies"
8758,The Yeti Adventures,"Children & Family Movies, Comedies"
8767,The Strangers: Prey at Night,Horror Movies
8774,If I Leave Here Tomorrow: A Film About Lynyrd ...,"Documentaries, Music & Musicals"


In [207]:
sindirector = df_concat.loc[df_concat["director"].isnull() == True, ["title"]]
sindirector

Unnamed: 0,title
2,On the Verge
7,Zero
8,Izzy's Koala World
9,Keymon and Nani in Space Adventure
13,Tobot Galaxy Detectives
...,...
8785,Kid Cosmic
8796,Octonauts: Above & Beyond
8801,Shadow and Bone
8805,Life in Color with David Attenborough


2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.

In [219]:
df_concat.iloc[0:5, [1,2,5]]

Unnamed: 0,type,title,country
0,Movie,Dick Johnson Is Dead,United States
1,Movie,The Starling,United States
2,TV Show,On the Verge,"France, United States"
3,Movie,Stowaway,"Germany, United States"
4,Movie,Wild Dog,


In [230]:
df_concat.iloc[-5:, [2,11]]

Unnamed: 0,title,description
8802,This Lady Called Life,"Abandoned by her family, young single mother A..."
8803,Vizontele,"In 1974, a rural town in Anatolia gets its fir..."
8804,HOMUNCULUS,Truth and illusion blurs when a homeless amnes...
8805,Life in Color with David Attenborough,"Using innovative technology, this docuseries e..."
8806,Searching For Sheela,Journalists and fans await Ma Anand Sheela as ...


In [234]:
df_concat.iloc[:10, 2:6]

Unnamed: 0,title,director,cast,country
0,Dick Johnson Is Dead,Kirsten Johnson,,United States
1,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States
2,On the Verge,,"Julie Delpy, Elisabeth Shue, Sarah Jones, Alex...","France, United States"
3,Stowaway,Joe Penna,"Anna Kendrick, Toni Collette, Daniel Dae Kim, ...","Germany, United States"
4,Wild Dog,Ahishor Solomon,"Nagarjuna Akkineni, Dia Mirza, Saiyami Kher, A...",
5,Oloibiri,Curtis Graham,"Olu Jacobs, Richard Mofe-Damijo, William R. Mo...","Canada, Nigeria, United States"
6,Tell Me When,Gerardo Gatica,"Jesús Zavala, Ximena Romo, Verónica Castro, Jo...",Mexico
7,Zero,,"Giuseppe Dave Seke, Haroun Fall, Beatrice Gran...",Italy
8,Izzy's Koala World,,"Izzy Bee, Ali Bee, Tim Bee",Australia
9,Keymon and Nani in Space Adventure,,,


In [237]:
df_concat.iloc[-7:, [2,3,5]]

Unnamed: 0,title,director,country
8800,Perfume Imaginary Museum “Time Warp”,"MIKIKO, Daito Manabe",
8801,Shadow and Bone,,United States
8802,This Lady Called Life,Kayode Kasum,Nigeria
8803,Vizontele,"Yılmaz Erdoğan, Ömer Faruk Sorak",Turkey
8804,HOMUNCULUS,Takashi Shimizu,Japan
8805,Life in Color with David Attenborough,,"Australia, United Kingdom"
8806,Searching For Sheela,,India


In [238]:
df_concat.iloc[15:26,:4]

Unnamed: 0,show_id,type,title,director
15,s1011,Movie,Rudra: The Rise of King Pharaoh,
16,s1012,Movie,Free to Play,
17,s1013,TV Show,Luis Miguel - The Series,
18,s1014,Movie,Miss Sloane,John Madden
19,s1015,TV Show,PJ Masks,
20,s1016,Movie,American Me,Edward James Olmos
21,s1017,Movie,Delhi Belly,Abhinay Deo
22,s1018,Movie,Dhobi Ghat (Mumbai Diaries),Kiran Rao
23,s1019,Movie,Jaane Tu... Ya Jaane Na,Abbas Tyrewala
24,s102,Movie,Untold: Breaking Point,"Chapman Way, Maclain Way"


In [239]:
df_concat.columns

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description',
       'titulo', 'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language',
       'original'],
      dtype='object')

In [240]:
df_concat.iloc[20:31,[2,7,8]]

Unnamed: 0,title,release_year,rating
20,American Me,1992,R
21,Delhi Belly,2011,TV-MA
22,Dhobi Ghat (Mumbai Diaries),2010,TV-MA
23,Jaane Tu... Ya Jaane Na,2008,TV-14
24,Untold: Breaking Point,2021,TV-MA
25,Lagaan,2001,PG
26,Madness in the Desert,2004,TV-14
27,Peepli Live,2010,TV-MA
28,Taare Zameen Par,2007,PG
29,Ajeeb Daastaans,2021,TV-MA


In [241]:
df_concat.to_csv("datos/netflix_mergeado.csv")