<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.

   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

In [1]:
import pandas as pd
pd.set_option ("display.max_columns", None)

## Importamos los datos

In [2]:
df_netflix_original = pd.read_csv ("netflix_originals.csv",index_col=0)
df_netflix_titles = pd.read_csv ("netflix_titles.csv", index_col=0)
df_netflix_original ["Nueva_Columa"] = "Si"


In [3]:
df_netflix_titles.shape
df_num_filas_titles = pd.DataFrame ()

## Mediante el metodo head vemos de forma reducida las columnas que componen el df

In [4]:
df_netflix_original.head (1)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Nueva_Columa
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese,Si


In [5]:
df_netflix_titles.head(1)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."


## Renombro la columna title a Title para que coincidan las 2 columnas

In [6]:

df_netflix_titles.rename (columns= {"title":"Title"}, inplace = True)
df_netflix_titles.head()

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


## Mediante el metodo info podemos ver el tipo de varibales que componen cada df. La columna Premiere hay que convertila a fecha.

In [7]:
df_netflix_original.info()

<class 'pandas.core.frame.DataFrame'>
Index: 513 entries, 0 to 583
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Title         513 non-null    object 
 1   Genre         513 non-null    object 
 2   Premiere      513 non-null    object 
 3   Runtime       513 non-null    int64  
 4   IMDB Score    513 non-null    float64
 5   Language      513 non-null    object 
 6   Nueva_Columa  513 non-null    object 
dtypes: float64(1), int64(1), object(5)
memory usage: 32.1+ KB


## No tenemos ningun nulo en ninguna columna del df original. El shape nos ha dado 513 lineas y hay 513 no nulos.

## Sin embargo, en el df de titles si que hay nulos.

In [8]:
nulos_titles = df_netflix_titles.isnull().sum()
df_nulos_titles = pd.DataFrame(nulos_titles)
df_nulos_titles.columns = ["Nulos"]
total_filas_titles = df_netflix_titles.shape[0]
df_nulos_titles ["Porcentaje_Nulos"] = ((df_nulos_titles ["Nulos"]/ total_filas_titles)*100).round(2)
df_nulos_titles


Unnamed: 0,Nulos,Porcentaje_Nulos
show_id,0,0.0
type,0,0.0
Title,0,0.0
director,2634,29.91
cast,825,9.37
country,831,9.44
date_added,10,0.11
release_year,0,0.0
rating,4,0.05
duration,4813,54.65


In [9]:
df_netflix_titles["cast"].describe ()

count                   7982
unique                  7692
top       David Attenborough
freq                      19
Name: cast, dtype: object

In [10]:
df_netflix_titles["director"].describe ()

count              6173
unique             4528
top       Rajiv Chilaka
freq                 19
Name: director, dtype: object

In [11]:
df_netflix_titles["duration"].describe ()

count          3994
unique          185
top       2 Seasons
freq            425
Name: duration, dtype: object

In [12]:
df_netflix_titles["country"].describe ()

count              7976
unique              748
top       United States
freq               2818
Name: country, dtype: object

## las columnas que más nulos tienen, no encuentro algo con lo que sustituirlos.

## La columna date_added tenemos que convertirla a formato fecha.

In [13]:
df_netflix_titles.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   Title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      3994 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 894.5+ KB


## Al imntentar hacer pd.to_datetime en Titles me da un error que en alguan de las posiciones parece que habia espacios. He usado el Strip para eliminar esos espacios.

In [14]:
df_netflix_titles['date_added'] = pd.to_datetime (df_netflix_titles['date_added'].str.strip())


In [15]:
df_netflix_titles.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   show_id       8807 non-null   object        
 1   type          8807 non-null   object        
 2   Title         8807 non-null   object        
 3   director      6173 non-null   object        
 4   cast          7982 non-null   object        
 5   country       7976 non-null   object        
 6   date_added    8797 non-null   datetime64[ns]
 7   release_year  8807 non-null   int64         
 8   rating        8803 non-null   object        
 9   duration      3994 non-null   object        
 10  listed_in     8807 non-null   object        
 11  description   8807 non-null   object        
dtypes: datetime64[ns](1), int64(1), object(10)
memory usage: 894.5+ KB


In [16]:
df_netflix_original["Title"].nunique()

513

## no hay titulos repetido en el original

## Tampoco hay nulos en "Titles" porque coincide el numero de valores no nulos con el conteo de unicos

In [17]:
df_netflix_original["Genre"].unique()

array(['Documentary', 'Thriller', 'Science fiction/Drama',
       'Horror thriller', 'Mystery', 'Action', 'Comedy',
       'Heist film/Thriller', 'Musical/Western/Fantasy', 'Drama',
       'Romantic comedy', 'Action comedy', 'Horror anthology',
       'Political thriller', 'Superhero-Comedy', 'Horror',
       'Romance drama', 'Anime / Short', 'Superhero', 'Heist', 'Western',
       'Animation/Superhero', 'Family film', 'Action-thriller',
       'Teen comedy-drama', 'Romantic drama', 'Animation',
       'Aftershow / Interview', 'Science fiction adventure',
       'Science fiction', 'Comedy-drama', 'Comedy/Fantasy/Family',
       'Action/Comedy', 'Action/Science fiction',
       'Romantic teenage drama', 'Comedy / Musical', 'Musical',
       'Variety show', 'Science fiction/Mystery',
       'Psychological thriller drama', 'Adventure/Comedy', 'Black comedy',
       'Romance', 'Horror comedy', 'Christian musical',
       'Romantic teen drama', 'Family', 'Dark comedy', 'Comedy horror',
    

In [18]:
df_contact = pd.concat ([df_netflix_original,df_netflix_titles],axis=1,ignore_index=True)

In [19]:
df_netflix_original.shape

(513, 7)

In [20]:
df_netflix_titles.shape

(8807, 12)

In [21]:
df_mergeado = df_netflix_titles.merge(df_netflix_original, on="Title",how="left")

In [22]:
df_mergeado.sample(5)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Nueva_Columa
1984,s1985,Movie,GIMS: On the Record,Florent Bodin,Maître Gims,France,2020-09-17,2020,TV-MA,,"Documentaries, International Movies, Music & M...",Go backstage with beloved rap superstar Gims i...,Documentary,"September 17, 2020",96.0,6.8,French,Si
2206,s2207,Movie,Project Marathwada,Bhavin Wadia,"Om Puri, Seema Biswas, Kunal Sheth, Rahul Pate...",India,2020-07-25,2016,TV-MA,,"Dramas, Independent Movies, International Movies","After his son’s suicide, a debt-ridden farmer ...",,,,,,
5300,s5301,Movie,Khoon Khoon,Mohammed Hussain,"Danny Denzongpa, Mahendra Sandhu, Rekha, Farya...",India,2017-09-01,1973,TV-14,132 min,"Action & Adventure, International Movies",As a crazed killer blazes a trail of blood thr...,,,,,,
5607,s5608,Movie,Katherine Ryan: In Trouble,Colin Dench,Katherine Ryan,United Kingdom,2017-02-14,2017,TV-MA,64 min,Stand-Up Comedy,Stand-up comic Katherine Ryan reminisces about...,,,,,,
6460,s6461,TV Show,Chewing Gum,,"Michaela Coel, John Macmillan, Robert Lonsdale...",United Kingdom,2017-04-04,2017,TV-MA,2 Seasons,"British TV Shows, International TV Shows, Roma...","The virginal Tracey, who was raised in a stric...",,,,,,


## he hecho un mergeado uniedo los valores del archivo  original a la derecha del archivo titles

In [23]:
df_filtro_Movie = df_mergeado.loc [df_mergeado["type"] == "Movie"]
df_filtro_Movie.head(1)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Nueva_Columa
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,Si


In [24]:
df_filtro_title_dur = df_mergeado.loc [df_mergeado["type"]=="TV Show", ["Title","duration","type"]]
df_filtro_title_dur.head()

Unnamed: 0,Title,duration,type
1,Blood & Water,2 Seasons,TV Show
2,Ganglands,,TV Show
3,Jailbirds New Orleans,,TV Show
4,Kota Factory,2 Seasons,TV Show
5,Midnight Mass,,TV Show


In [25]:
df_filtro_pais = df_mergeado.loc [df_mergeado["country"] == "United States"]
df_filtro_pais.head(1)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Nueva_Columa
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,Si


In [26]:
df_filtro_director = df_mergeado.loc [df_mergeado["type"]=="Movie", ["Title", "director"]]
df_filtro_director.head()

Unnamed: 0,Title,director
0,Dick Johnson Is Dead,Kirsten Johnson
6,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha"
7,Sankofa,Haile Gerima
9,The Starling,Theodore Melfi
12,Je Suis Karl,Christian Schwochow


In [27]:
df_filtro_ano_lanzamiento = df_mergeado.loc [df_mergeado["release_year"]==2018, ["Title","Genre"]]
df_filtro_ano_lanzamiento

Unnamed: 0,Title,Genre
21,Resurrection: Ertugrul,
37,Angry Birds,
73,King of Boys,
94,Show Dogs,
96,If I Leave Here Tomorrow: A Film About Lynyrd ...,
...,...,...
8732,White Chamber,
8743,Wildlife,
8774,يوم الدين,
8775,Yeh Meri Family,


In [28]:
df_filtro_sindirector = df_mergeado.loc [df_mergeado["director"].isna(),["Title"]]
df_filtro_sindirector.head()

Unnamed: 0,Title
1,Blood & Water
3,Jailbirds New Orleans
4,Kota Factory
10,"Vendetta: Truth, Lies and The Mafia"
14,Crime Stories: India Detectives


In [29]:
df_netflix_titles["director"].unique()

array(['Kirsten Johnson', nan, 'Julien Leclercq', ..., 'Majid Al Ansari',
       'Peter Hewitt', 'Mozez Singh'], dtype=object)

In [30]:
df_iloc_5filas = df_mergeado.iloc[:5][["Title", "director", "country"]]
df_iloc_5filas

Unnamed: 0,Title,director,country
0,Dick Johnson Is Dead,Kirsten Johnson,United States
1,Blood & Water,,South Africa
2,Ganglands,Julien Leclercq,
3,Jailbirds New Orleans,,
4,Kota Factory,,India


In [31]:
df_iloc_5ultimasfilas = df_mergeado.iloc[-6:-1][["Title", "description"]]
df_iloc_5ultimasfilas

Unnamed: 0,Title,description
8801,Zinzana,Recovering alcoholic Talal wakes up inside a s...
8802,Zodiac,"A political cartoonist, a crime reporter and a..."
8803,Zombie Dumb,"While living alone in a spooky town, a young g..."
8804,Zombieland,Looking to survive in a world taken over by zo...
8805,Zoom,"Dragged from civilian life, a former superhero..."


In [32]:
df_iloc_10filas = df_mergeado.iloc[:10,1:5]
df_iloc_10filas

Unnamed: 0,type,Title,director,cast
0,Movie,Dick Johnson Is Dead,Kirsten Johnson,
1,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban..."
2,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi..."
3,TV Show,Jailbirds New Orleans,,
4,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K..."
5,TV Show,Midnight Mass,Mike Flanagan,"Kate Siegel, Zach Gilford, Hamish Linklater, H..."
6,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ..."
7,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D..."
8,TV Show,The Great British Baking Show,Andy Devonshire,"Mel Giedroyc, Sue Perkins, Mary Berry, Paul Ho..."
9,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T..."


In [33]:
df_iloc_7ultimas = df_mergeado.iloc [-8:-1,[2,3,5]]
df_iloc_7ultimas

Unnamed: 0,Title,director,country
8799,Zenda,Avadhoot Gupte,India
8800,Zindagi Gulzar Hai,,Pakistan
8801,Zinzana,Majid Al Ansari,"United Arab Emirates, Jordan"
8802,Zodiac,David Fincher,United States
8803,Zombie Dumb,,
8804,Zombieland,Ruben Fleischer,United States
8805,Zoom,Peter Hewitt,United States


In [34]:
df_iloc_15_25filas = df_mergeado.iloc [14:25,0:4]
df_iloc_15_25filas

Unnamed: 0,show_id,type,Title,director
14,s15,TV Show,Crime Stories: India Detectives,
15,s16,TV Show,Dear White People,
16,s17,Movie,Europe's Most Dangerous Man: Otto Skorzeny in ...,"Pedro de Echave García, Pablo Azorín Williams"
17,s18,TV Show,Falsa identidad,
18,s19,Movie,Intrusion,Adam Salky
19,s20,TV Show,Jaguar,
20,s21,TV Show,Monsters Inside: The 24 Faces of Billy Milligan,Olivier Megaton
21,s22,TV Show,Resurrection: Ertugrul,
22,s23,Movie,Avvai Shanmughi,K.S. Ravikumar
23,s24,Movie,Go! Go! Cory Carson: Chrissy Takes the Wheel,"Alex Woo, Stanley Moore"


In [35]:
df_iloc_filas2030 = df_mergeado.iloc [19:29,[2,7,8]]
df_iloc_filas2030

Unnamed: 0,Title,release_year,rating
19,Jaguar,2021,TV-MA
20,Monsters Inside: The 24 Faces of Billy Milligan,2021,TV-14
21,Resurrection: Ertugrul,2018,TV-14
22,Avvai Shanmughi,1996,TV-PG
23,Go! Go! Cory Carson: Chrissy Takes the Wheel,2021,TV-Y
24,Jeans,1998,TV-14
25,Love on the Spectrum,2021,TV-14
26,Minsara Kanavu,1997,TV-PG
27,Grown Ups,2010,PG-13
28,Dark Skies,2013,PG-13


In [36]:
df_mergeado.to_csv("data_mergeado.csv")

### Comprobar la variedad entre titulos originales y adquiridos por Netflix

In [37]:
df_comparativa_original = df_netflix_original.loc[:, ["Premiere", "Genre"]]
df_comparativa_original

Unnamed: 0,Premiere,Genre
0,"August 5, 2019",Documentary
1,"August 21, 2020",Thriller
2,"December 26, 2019",Science fiction/Drama
3,"January 19, 2018",Horror thriller
4,"October 30, 2020",Mystery
...,...,...
576,"November 24, 2017",Documentary
577,"October 23, 2019",Documentary
580,"October 9, 2015",Documentary
581,"December 16, 2018",One-man show


In [38]:
conteo_generos_original = pd.DataFrame(df_comparativa_original["Genre"].value_counts())
df_conteo_total_original = conteo_generos_original["count"].sum()

conteo_generos_original ["Porcentaje"] = (conteo_generos_original["count"]/df_conteo_total_original*100).round(2)
conteo_generos_original

Unnamed: 0_level_0,count,Porcentaje
Genre,Unnamed: 1_level_1,Unnamed: 2_level_1
Documentary,132,25.73
Drama,73,14.23
Comedy,42,8.19
Romantic comedy,35,6.82
Thriller,33,6.43
...,...,...
Action-adventure,1,0.19
Concert Film,1,0.19
Animation / Science Fiction,1,0.19
Anthology/Dark comedy,1,0.19


In [39]:
df_comparativa_adquirido = df_netflix_titles.loc [:,["date_added", "listed_in",]]
df_comparativa_adquirido

Unnamed: 0,date_added,listed_in
0,2021-09-25,Documentaries
1,2021-09-24,"International TV Shows, TV Dramas, TV Mysteries"
2,2021-09-24,"Crime TV Shows, International TV Shows, TV Act..."
3,2021-09-24,"Docuseries, Reality TV"
4,2021-09-24,"International TV Shows, Romantic TV Shows, TV ..."
...,...,...
8802,2019-11-20,"Cult Movies, Dramas, Thrillers"
8803,2019-07-01,"Kids' TV, Korean TV Shows, TV Comedies"
8804,2019-11-01,"Comedies, Horror Movies"
8805,2020-01-11,"Children & Family Movies, Comedies"


In [40]:
df_conteo_generos_adquiridos = pd.DataFrame(df_comparativa_adquirido["listed_in"].value_counts())
df_conteo_total = df_conteo_generos_adquiridos["count"].sum()

df_conteo_total


np.int64(8807)

In [41]:
df_conteo_generos_adquiridos ["Porcentaje"] = (df_conteo_generos_adquiridos["count"]/df_conteo_total*100).round(2)
df_conteo_generos_adquiridos

Unnamed: 0_level_0,count,Porcentaje
listed_in,Unnamed: 1_level_1,Unnamed: 2_level_1
"Dramas, International Movies",362,4.11
Documentaries,359,4.08
Stand-Up Comedy,334,3.79
"Comedies, Dramas, International Movies",274,3.11
"Dramas, Independent Movies, International Movies",252,2.86
...,...,...
"Classic & Cult TV, TV Horror, TV Mysteries",1,0.01
"British TV Shows, TV Dramas, TV Sci-Fi & Fantasy",1,0.01
"Action & Adventure, Faith & Spirituality, Sci-Fi & Fantasy",1,0.01
"Comedies, Cult Movies, Sports Movies",1,0.01


## En los titulos originales de Netflix un 25.73% son documentales y sin embargo, en los adquiridos solo un 4 %

In [51]:
filtro_Nueva_columna = df_mergeado ["Nueva_Columa"] == "Si"
df_pais_original = pd.DataFrame(df_mergeado.loc [filtro_Nueva_columna,["country"]].value_counts())
df_pais_total_original = df_pais_original["count"].sum()

df_pais_original ["Porcentaje"] = (df_pais_original["count"]/df_pais_total_original*100).round(2)
df_pais_original


Unnamed: 0_level_0,count,Porcentaje
country,Unnamed: 1_level_1,Unnamed: 2_level_1
United States,274,54.91
India,35,7.01
United Kingdom,13,2.61
Italy,13,2.61
Spain,12,2.40
...,...,...
"United States, Germany",1,0.20
"United States, Japan",1,0.20
"United States, United Kingdom, Canada",1,0.20
"United States, United Kingdom, Germany",1,0.20


## De los titulos originales el 55 % son de Estados Unidos.

In [52]:
filtro_Nueva_columna2 = df_mergeado ["Nueva_Columa"].isnull()
df_pais_titles = pd.DataFrame(df_mergeado.loc [filtro_Nueva_columna2,["country"]].value_counts())
df_pais_total_titles = df_pais_titles["count"].sum()

df_pais_titles ["Porcentaje"] = (df_pais_titles["count"]/df_pais_total_titles*100).round(2)
df_pais_titles

Unnamed: 0_level_0,count,Porcentaje
country,Unnamed: 1_level_1,Unnamed: 2_level_1
United States,2544,34.02
India,937,12.53
United Kingdom,406,5.43
Japan,241,3.22
South Korea,193,2.58
...,...,...
Venezuela,1,0.01
"Venezuela, Colombia",1,0.01
"China, United States",1,0.01
West Germany,1,0.01


## de los titulos adquiridos por Netflix son un 34% de estados Unidos